Huấn luyện ChatGPT

ChatGPT được tinh chỉnh dựa trên GPT-3.5 bằng cách sử dụng phương pháp học có giám sát cùng với phương pháp học tăng cường.[2] Cả hai phương pháp đó đều sử dụng huấn luyện viên là con người để cải thiện hiệu suất của mô hình. Trong trường hợp học có giám sát (supervised learning), mô hình này được cung cấp các hội thoại trong đó huấn luyện viên đóng vai trò làm cả hai bên: người dùng và trợ lý AI. Trong bước tăng cường (reinforcement), đầu tiên 'huấn luyện viên con người' xếp hạng các phản hồi mà mô hình này đã tạo ra trong mấy hội thoại trước đó. Các xếp hạng này được sử dụng để tạo ra 'mô hình phần thưởng', rồi từ đó mô hình đấy được tinh chỉnh thêm nữa bằng cách sử dụng Proximal Policy Optimization (PPO, Tối ưu hóa chính sách cận tính), lặp đi lặp lại mấy lần quá trình này.[3][4] Các thuật toán của Proximal Policy Optimization mang trong mình những lợi điểm của các thuật toán trong trust region policy optimization (Tối ưu hóa chính sách miền tin tưởng), mà lại khắc phục được các thao tác tốn kém trong tính toán nhờ hiệu suất nhanh hơn.[5] Các mô hình đấy được huấn luyện với sự cộng tác từ Microsoft trên cơ sở hạ tầng siêu máy tính Azure của họ.

Tài liệu tham khảo

WikiPedia: ChatGPT http://chat.openai.com/chat http://www.arxiv.org/abs/2210.10760 https://www.smh.com.au/national/is-ai-coming-of-ag... https://www.cbc.ca/radio/thecurrent/chatgpt-human-... https://arstechnica.com/information-technology/202... https://www.bleepingcomputer.com/news/technology/o... https://www.bloomberg.com/opinion/articles/2022-12... https://www.cnbc.com/2022/12/15/google-vs-chatgpt-... https://www.cnn.com/2022/12/05/tech/chatgpt-trnd/i... https://www.lesswrong.com/posts/RYcoJdvmoBbi5Nax7/...